针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列, 易导致数据稀疏的问题, 提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题, 进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验, 结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。
针对语义省略“的”字结构识别任务, 提出一种基于组合神经网络的识别方法。利用词语和词性, 通过双向LSTM (long short-term memory)神经网络, 学习“的”字结构深层次的语义语法表示。通过Max-pooling层和基于GRU(gated recurrent unit)的多注意力层, 捕获“的”字结构的省略特征, 完成语义省略“的”字结构识别任务。实验结果表明, 所提模型在CTB8.0(Chinese Treebank 8.0)语料中, 能够有效地识别语义省略的“的”字结构, F1值达到96.67%。
基于《现代汉语语义词典》, 首先建立不同语义层次的词典, 根据词典分别构建模型并进行语义预测, 然后将各个模型进行集成, 通过集成模型再对未登录词进行语义预测, 得到较好的预测性能。利用预测模型对2000年《人民日报》语料进行未登录词语义预测和标注, 最终得到带有未登录词语义义项标注的语料资源。